《文学文摘》为何遭遇滑铁卢？

2000-11-01　来源：中华读书报　我有话说

编者按：下文摘自陈希孺院士著《机会的数学》。该段落主要介绍随机抽样的原则和注间事项，其中讲到《文学文摘》预测总统选举出现重大失误的故事，饶有趣味，现摘录如下，以飨读者。

随机抽样主要适合于哪些情况呢？首先，群体足够大，以至研究者不可能充分掌握其中各个体的情况。如果群体较小，干脆用普查的方式，工作量也不大。其次，抽样的目的不是让选出的个体完成某项明确的任务（如参加运动会），而是为了对群体的某项指标进行估计。例如该群体中患有某种疾病的人的比率有多大，其平均收入有多少等，对这类问题，通过随机抽样所做的估计，其误差可用概率方法加以估计。若用人为挑选的办法，则因为群体中个体数大多，代表性不易保证，因而在估计上会有偏差，且偏差大小无法进行估计。借用经济学上的说法，随机抽样可比拟为用“看不见的手”来进行调节。在市场中，充满了难以掌握的偶然因素，可人类经验证明，市场经济有利于使资源配置优化，产生更大的经济效益。而计划经济则由于人的认识有限及不能摆脱主观偏向的局限性，效果反而不如。这个比拟可以启示我们随机抽样优越性的道理所在。

由于在挑选样本时未能充分体现随机化的原则而造成失误的例子，在应用上不少见。历史上一个有名的例子，是美国一家有名的刊物《文学文摘》预测1936年美国总统选举结果发生重大失误的事。当年的两位候选人，一是民主党的罗斯福，一是共和党的兰登，当时大多数民意测验，新闻机构和政治观察家都预测罗斯福会获胜，但《文学文摘》与众不同，它预言兰登会以57％：43％的优势战胜罗斯福。最后结果：罗斯福以62％：38％的压倒优势当选。由于这个重大失误，这家杂志不久即宣告破产。

《文学文摘》做出这个预测，并非一种主观臆断，而是依据对240万人的民意测验做出的。附带说一句，盖洛普在战后做过多次关于总统大选结果的民意测验，不仅与实际结果接近（当选者预测无误，得票率估计略有误差），且调查的人数也不过几千人，比《文学文摘》所用的240万人，相去甚远，但预测结果却相当成功。

为何《文学文摘》做了这么大规模的调查，反而没有取得满意的结果呢？问题出在样本的挑选上。该刊从电话号码簿和俱乐部会员名册上挑选了过多的访问对象，这样做在工作上带来方便。如果要在全国范围内用随机的方法挑选访问对象，则麻烦要大得多。但在1936年，美国家庭装的电话机只有1100万部左右，因此有家用电话者，尤其是有条件参加某种俱乐部的人，大多是经济上较富有、政治上保守而倾向共和党的选民，这就造成显著的系统性偏差。就是说，较贫穷的阶层，包括当时多达900万的失业者，在样本中缺少其应有的代表性。当时正值1929－1933年经济大萧条过去不久，较贫困的阶层人数不少，与兰登相比，罗斯福推行的新政较多地考虑了这些人的利益，这解释了《文学文摘》的预测为何产生如此大的偏差。除此以外，它还犯了一个错误：该刊起初拟访问对象为1000万人，相信在这个庞大的样本中，美国社会各阶层的代表性会好些。但这1000万人中只有240万人寄回了对问题单的回答。较富有的人，对当时现实抱比较满意态度以及文化水平较高的人，做出回答的可能性要大些，这个倾向有利于共和党。这是另一个系统性偏差，它加重了原来在挑选样本时已存在的系统性偏差。这一点曾在芝加哥地区得到证实：该刊向芝加哥地区1／3的登记选民发了问题单，有20％的人做了回答，其中半数以上有利于兰登。但实际结果是：在芝加哥是以2：1的优势有利于罗斯福。

类似于本例的错误，在其他抽样调查工作中也时有发生。除了有意的偏向外，为图工作省事而不去认真实行随机化抽样方案，是一个常见的原因。如调查某地区的农民经济情况，为图方便，更多地在交通沿线和城镇附近地区多找调查对象。这些地区一般经济较发达，农民的状况也较好，因而样本就包含较大的偏差。另外，我们前面曾提到在抽样调查中的“无回答”的问题，其影响在本例中也得到充分印证。所以，我们一开始就说，随机抽样在纸面上谈起来容易，要做好却是麻烦多多。

（《机会的数学》，收入“院士科普书系”，清华大学出版社、暨南大学出版社2000年6月出版）

[值班总编推荐] 退还彩礼,婚姻不是两个家庭的财富...

[值班总编推荐] “建功西部，青春风采正飞扬！” ...

[值班总编推荐] 戏曲蓝夹缬：南戏基因的民间密码

漫话天下